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基于 方形 领域 的 网 格 密度 聚 类 算法 
兰 ” 红 *， 朱 合 隆 
(江西 理工 大 学 信息 工程 学 院 , 江西 赣州 341400) 


摘 要 : 针对 大 数据 聚 类 低 效 的 问题 ， 提 出 一 种 方形 邻 域 快速 网 格 密度 聚 类 算法 SGBSCAN (square-neighborhood 
and Grid-based DBSCAN)。 首 先 给 出 方形 邻 域 密度 聚 类 定义 ， 利 用 方形 邻 域 代替 圆 形 邻 域 ， 降 低 时 间 复 杂 度 ; 其 次 
提出 方形 邻 域 密 度 聚 类 的 Grid 概念 ， 快 速 确定 高 密度 区 域内 核心 点 与 数据 点 之 间 的 密度 关系 ; 最 后 提出 Grid 密度 
给 ， 利 用 网 格 之 间 的 关系 加 快 密度 徐 的 形成 。 算 法 应 用 于 16 个 数据 集 ， 分 别 与 已 有 文献 算法 进行 对 比 ， 结 果 表明 
所 提 算 法 在 聚 类 效率 方面 有 显著 提升 ， 数 据 量 越 大 算法 效率 提升 越 明显 ， 且 所 提 算 法 适用 于 多 维 数据 的 聚 类 。 
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中 图 分 类 号 : TP274 doi: 10.19734/j.issn.1001-3695.2018.12.0883 


Grid density clustering algorithm based on square neighborhood 


Lan Hong', Zhu Helong 
(School of Information Engineering, Jiangxi University of Science & Technology, Ganzhou Jiangxi 341400, China) 


Abstract: To solve the problem of low efficiency of large data clustering, this paper proposes a fast grid density clustering 
algorithm SGBSCAN(Square-neighborhood and Grid-based DBSCAN) . Firstly, this paper gave the definition of square 
neighborhood density clustering , and used the square neighborhood instead of the circular neighborhood to reduce the time 
complexity. Secondly, this paper proposed the concept of grid of square neighborhood density clustering , to determine the 
density relationship between core points and data points in high density region quickly. Finally, this paper proposed the Grid 
density cluster, the method used the relationship between the grid to accelerate the formation of density clusters. The 
algorithm made 16 data sets and compared with the existing literature algorithms. The results shows that the algorithm has a 
significant improvement in clustering efficiency. The larger the data volume, the more obvious the efficiency of the 
algorithm, and the algorithm is suitable for multidimensional data clustering. 
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民 区 等 人 ro 提出 的 基于 网 格 的 GG 算法 依旧 存在 着 算法 聚 类 精 
吾 度 不 高 的 问题 。 

聚 类 作为 机 器 学 习 中 无 监督 学 习 的 代表 ， 它 能 够 在 大 数 由 于 彦 伟 等 人 0 提出 的 面向 位 置 大 数据 的 快速 密度 聚 

据 下 发 现 数据 中 的 潜在 联系 ， 发 现 数据 中 的 有 价值 的 信息 ， ”类 算法 有 效 的 提高 了 密度 聚 类 的 效率 ， 算 法 采用 圆 形 邻 域 ， 

人 。 被 广泛 用 于 生物 医学 邻 域 员 /商业 数据 分 析 邻 域 2y 位 置 服务 。 结合 cell 网 格 、 call 距离 分 析 和 网 格 迄 获 得 了 显著 的 加 速 比 


各 
记  B/ 图 像 处 理 等 邻 域内 ， 使 得 其 成 为 多 方 的 研究 重点 。 但 是 该 算法 使 用 圆 形 邻 域 获得 的 加 速 比 在 效率 上 还 有 待 进 
聚 类 已 经 被 研究 很 多 年 ， 衍 生出 多 种 聚 类 算法 ， 大 致 可  ” 步 提 升 ， 圆 形 邻 域 结合 Ce 等 概念 针对 二 维 数据 友好 ， 但 是 
分 为 基于 划分 的 算法 (如 K-meansFl)、 基 于 层次 的 算法 不 易于 拓展 到 高 维 数据 。 现 实 中 ， 高 维 数据 聚 类 分 析 在 市 场 
(如 Chameleonts1)、 基 于 密度 的 算法 (如 DBSCANII 和 分析 、 信 息 安全 、 金 融 、 娱 乐 、 反 恐 等 方面 都 有 很 广泛 的 应 


CE 


l 


OPTICS[S1)、 基 于 网 格 的 算法 (如 STINGBI 和 GGH9)、 基 用 ， 高 维 数据 的 聚 类 分 析 已 成 为 聚 类 分 析 的 一 个 重要 研究 方 
于 模型 的 算法 (如 GMM 算法 00)。 其 中 基于 密度 的 算法 | 向 。 
于 其 上 共有 可 以 识别 任意 形状 的 簇 且 可 以 识别 噪声 的 优点 ， 受 本 文 针对 文献 [12] 存 在 的 不 足 ， 提 出 一 种 改进 的 密度 聚 


到 如 位 置 数据 挖掘 领域 0 的 青睐 。 其 中 由 Ester 等 人 中 提出 ” 类 算法 SGBSCASN。 首 先 使 用 方形 邻 域 替代 传统 的 圆 形 邻 
的 DBSCAN 为 密度 聚 类 的 代表 性 算法 ， 虽 然 DBSCAN 有 ” 域 去 除 距 离 计 算 ， 其 次 采用 crid 距离 分 析 减 少 了 距离 对 比 
密度 算法 的 优点 ， 但 是 其 2(2) 时 间 复 杂 度 使 得 该 算法 很 难 ” 次数， 最 后 基于 Grid 的 密度 艇 概念 提出 的 网 格 间 的 关系 减 
应 用 于 大 规模 数据 的 聚 类 。Ankerst 等 人 [提出 的 OPTICS ”少数 据 的 遍历 提高 了 聚 类 效率 。 改 进 算法 在 七 个 数据 集 下 进 
法 使 用 广泛 参数 代替 DBSCAN 的 绝对 参数 解决 了 行 了 实验 效果 评估 ， 在 Geolifell9-20 项 目的 大 数据 集 下 进行 
DBSCAN 中 参数 敏感 性 问题 ， 但 是 该 算法 的 算法 框架 流程 了 数据 规模 的 性 能 测试 ， 在 HTRU2P2 多 维 大 数据 集 下 进行 
与 DBSCAN 相同 ， 都 得 对 数据 集 进 行 重 复 遍 历 ， 时 间 复 杂 了 数据 维度 的 性 能 测试 ， 这 几 项 测试 从 算法 的 聚 类 效果 和 算 
度 依然 是 2(02) 。 由 Wang 等 人 外 提出 的 STING 算法 基于 网 法 性 能 方面 与 DBSCAN、K-Means 和 CBSCAN 进行 了 对 比 
格 查询 ， 效 率 提高 明显 ， 但 是 聚 类 质量 不 足 。 后 续 由 Zhao 分析。 
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\ 从 4 出 发 是 直接 密度 可 达 的 。 可 以 得 出 若 peN8(4) ， 见 

1.1 方形 邻 域 密度 聚 类 密度 可 达 : 给 定数 据点 集合 {zP……PjsD， 若 任意 

1) 基本 思想 Pu 从 pi(i=42…,n-l) 出 发 是 直接 密度 可 达 的 ， 则 称 p 密度 
密度 聚 类 是 根据 密度 分 布 将 高 密度 区 域 的 数据 点 划分 为 。” 可 达 p,。 


清 


同一 类 的 聚 类 方法 ， 该 方法 能 够 聚 类 出 任意 形状 的 数据 集 ， 
且 具 有 识别 数据 集中 噪声 点 的 能 力 。 和 察 类 算法 采 
用 圆 形 邻 域 ， 采 用 欧 氏 距离 判断 数据 点 是 否 在 领域 内 ， 如 式 
(1) 所 示 ， 通 过 欧 氏 距离 计算 生成 聚 家 类 外。 


Ps- <Eps (1) 


其 中 : 尺 ,y 分别 表 示 数 据点 对 应 维度 的 值 ， Eps 为 圆 形 领域 
的 半径 。 


欧 氏 距离 中 存在 多 次 乘 运算 及 开 方 运算 ， 时 间 复 杂 度 为 
O(3n)。 

本 文 利用 方形 代替 
式 (2)。 


en 


形 ， 判 断 数据 点 是 否 在 领域 内 采用 


ns- -中 < 2 O) 

无 须 进 行 乘 运算 及 开 方 运算 ， 时 间 复 杂 度 为 0(2n) ， 提 
高 聚 类 效率 。 

2) 相关 术语 定义 

设 数据 集 为 D ， 数 据点 peD ,geD， 
MinPts 。 

Ssl(Square Side Length) : 以 数据 点 为 中 心 的 超 立 方 体 邻 域 
的 边 长 。 


MinPts(Min Points) : 


首先 定义 Ssl 和 


最 小 邻居 点 的 数目 值 。 数 据点 ?要 


成 为 核心 点 的 必要 条 件 即 其 邻 域内 至 少 包 含 MinPis 个 数据 点 ， 


这 些 点 称 为 ? 点 的 邻居 点 。 
用 N&(p) 表示 点 ? 在 其 Ss 邻 域内 邻居 点 的 集合 ， 
IN&8,(p) 表示 该 集合 中 数据 点 的 数量 。 给 出 方形 邻 域 的 核心 
点 、 边 界 点 等 相关 术语 定义 。 

核心 点 : 如 果 数 据点 ? 满足 式 (3)， 则 其 为 核心 点 。 


|V& (p)> MinPts (3) 
边界 点 : 如 果 数 据点 P 满足 式 (4) 的 条 件 ， 则 其 为 边 
界 点 。 
|N&(P<MinPk 广 核心 点 <N&(D) (4) 
噪声 点 : 如 果 数 据点 ?满足 式 (5)， 则 其 为 噪声 点 。 
IN8.(p 咱 <MinPis 及 核心 点 g N8,(p) (5) 
直接 密度 可 达 : 设 4 为 核心 点 ， 且 peN8(g) ， 则 说 了 


密度 相连 : 若 存 在 数据 点 osD ， 且 P 密度 可 达 o。、4 
密度 可 达 o。， 那 么 说 ?和 4 是 密度 相连 的 。 
3) 方形 邻 域 密度 艇 
以 上 术语 的 定义 ， 给 出 方形 邻 域 密度 艇 的 定义 。 

定义 1 方形 邻 域 密度 艇 。 给 定数 据 集 D ， 将 方形 邻 域 
内 密度 相连 的 点 的 非 空 集合 定义 为 密度 艇 。 
1.2 基于 Grid 划分 的 距离 分 析 

针对 方形 邻 域 密度 聚 类 ， 提 出 基于 网 格 划分 的 距离 分 析 
方法 ， 称 为 Grid 网 格 划 分 ， 给 出 基于 网 格 层 数 参数 
Per 的 Grid 定义 ， 提 出 基于 Grid 的 距离 关系 分 析 方 法 及 最 优 
Layer 选择 问题 。 

1) 网 格 Grid 定义 

Layer : 基于 Grid 的 距离 分 析 需 要 在 方形 邻 域 密度 聚 类 
的 基础 上 增加 网 格 层 数 参数 Layer(Layer>3) ， 数 据点 的 方形 
邻 域 称 为 Square ， 机 定义 Square 所 包含 的 网 格 层 数 。 


定义 2 Grid 。 给 定数 据 集 D 、 参 数 S ， 将 数据 集 D 
划分 到 网 格 中 ， 网 格 边 长 GL 的 计算 公式 为 
Sa 四 -1 (6) 
每 个 划分 的 网 格 称 为 Grid ， 表 示 为 G6, ， 其 中 下 标的 
值 通过 式 (7) 计算 获得 ; X 为 数据 点 的 坐标 向 量 。 
_| (2Layer —1):X 
=| | 0) 


Grid 的 定义 可 知 ， 对 于 任何 数据 点 ， 都 可 以 使 用 式 
(7) 将 其 映射 到 相应 的 Gria ， 所 以 根据 数据 点 坐标 ， 即 可 
快速 定位 到 相应 的 网 格 。 

2) 网 格 Grid 与 核心 点 的 关系 

1 所 示 为 Layer 与 网 格 的 关系 。 下 面 分 析 网 格 Grid 与 
核心 点 之 间 的 关系 。 

引 理 1 给 定 网 格 6, 中 的 一 个 数据 点 ? ， 设 ?为 k 维 数 
据点 ， 则 7? 点 的 坐标 为 X=[%,%,…,xmx] ， 定 义 1G| 表 示 网 格 G 
中 的 数据 点 数量 ， 若 6 满足 式 〈(8)， 则 点 ?一 定 是 核心 点 。 
《证 明 见 附录 ) 


(8) 


(a) Layer =3 


(b) Layer =4 
图 1 基于 Grid 网 格 的 距离 分 析 


(c) Layer =5 


Fig.1 Distance analysis based on Grid 
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推广 引 理 1 可 得 出 推论 1 定义 可 知 ， 对 于 6, ， 其 能 够 成 为 非 核心 网 格 核 的 充 

推论 1 给 定 一 个 网 格 6 ， 如 果 其 满足 式 (8)， 则 ”要 条 件 为 a) G 为 半 核 心 网 格 或 者 b) 9, 的 中 心 点 的 su 令 
Vp(peG) 都 是 核心 点 。 es 

二 半 核 心 网 格 ， 果 有 Gi. (Gy 为 半 核 心 网 格 ) 在 G; 尼 

更 可 以 推出 下 面 结论 ， 如 果 @ 满足 式 (9)， 人 

Gz MPs @) 中心 点 的 ssi 邻 域内 ， 则 0 为 非 核 心 网 格 。G 为 半 核 心 网 


格 ， 则 一 定 3p(peG) 为 核心 点 ， 则 61 内 所 有 的 点 都 是 密 


度 可 达 P， 即 vpeC(peG)。 
G 内 所 有 的 数据 点 都 是 核心 点 。 边界 网 格 (BG ): 给 定 网 格 G 和 密度 艇 C ， 若 
引 理 2 ”给 定数 据点 psG ， 判 断 忆 是 否 为 核心 点 ， 则 3peC(peG,) ， 则 称 网 格 5 为 边界 网 格 (boundary grid ， 
至 多 需要 判断 (2Layer -(2Layer-3) 个 网 格 中 为 ? 的 邻居 点 BG)。 
的 数据 点 个 数 。( 证 明 见 附录 ) SGBSCASN 算法 即 在 一 定 的 密度 艇 上 聚合 全 核心 网 格 、 
引 理 2 说 明了 验证 P? 是 否 为 核心 点 的 最 大 搜索 范围 。 以 ” 半 核 心 网 格 、 非 核心 网 格 以 及 边界 网 格 内 的 所 有 的 边界 点 。 


则 


VG(Ge{Gi a a a) —Layer +2< di,d,,…,d. < Layer —2}) 


引 理 2 可 以 推出 以 下 推论 2， 根 据 推论 2， 可 以 快速 地 对 网 ”算法 应 用 推论 1， 只 需 统计 单个 网 格 数 据点 数量 ， 便 能 大 范 
格 是 否 存在 核心 点 进行 排除 。 围 的 确定 全 核心 网 格 ; 应 用 引 理 1， 只 需 统计 (2Layer-3) 个 
推论 2 给 定 网 格 G ， 如 其 满足 式 〈10)， 则 G 内 不 存 网 格 中 的 数据 点 个 数 ， 无 须 进行 距离 计算 ， 即 可 快速 确定 数 
在 核心 点 。 据 中 的 高 密度 区 域 以 及 全 核心 网 格 ; 应 用 引 理 2， 只 需 少 量 
人 ao0) 的 范围 判断 以 及 统计 网 格 数量 ， 便 可 快速 地 推断 出 网 格 中 数 
dd Lever 据点 是 否 为 核心 点 ， 推论 2 的 应 用 可 以 快速 地 确定 网 格 内 是 
3) Grid 中 选择 最 优 Layer 否 存 在 核心 点 ， 以 减少 计算 ; 由 定义 5 可 以 快速 确定 边界 网 
算法 中 存在 Layer 的 选择 问题 ， 选 择 合适 的 Layer 值 将 带 格 区 域 ， 快 速 对 边界 点 进行 聚 类 。 算 法 做 到 了 在 保证 算法 精 
来 算法 性 能 的 提升 。 确 度 的 情况 下 完全 不 需要 距离 计算 ， 即 可 快速 地 确定 密度 艇 。 
下 面 分 析 Grid 中 选择 最 优 Layer 的 问题 。 2.2 SGBSCAN 算法 描述 
设 A 为 事件 ， 事 件 内 容 为 利用 引 理 1 判断 网 格 内 所 有 SGBSCAN 算法 的 总 体 流 程 如 图 2 所 示 。 首 先 依据 输入 
的 点 是 否 为 核心 点 ， 则 事件 A 发 生 的 概率 为 的 参数 将 数据 集中 的 数据 点 划分 到 各 个 网 格 中 ， 并 且 得 到 各 
p(A) = C0er 3) (1) 个 网 格 的 索引 。 其 次 ， 遍 历 所 有 的 数据 点 ， 通 过 数据 点 获得 
(Ce 人 数据 点 所 在 网 格 ， 判 断 数 据点 和 网 格 是 否 未 访问 。 如 果 未 访 
可 以 看 出 ， 当 Layer 增 大 ，P(4) 也 增 大 ;但 另 一 方面 ， 问 ， 则 判断 其 是 否 为 4CG 或 者 HCG 。 若 是 则 拓展 密度 簇 ， 
划分 的 网 格 数量 为 若 不 是 则 认为 网 格 属于 NCG 或 者 BG ， 其 内 的 数据 点 属于 边 
N SQLayer -1 (12) 界 点 或 噪声 ， 然 后 自 增 Cluster 。 循 环 遍 历 至 结束 ， 返 回 聚 类 
! SA 结果 。 
其 中 :5 表示 所 有 数据 点 邻 域 占据 的 空间 ，k 表示 维度 。 随 


着 Leyer 增 大 ，N, 也 在 增 大 。 

当 (k>3) 时 ，WN, 增 长 速度 远大 于 P(4) 的 增长 速度 ， 划 
分 的 网 格 数量 多 影响 网 格 的 索引 效率 。 因 而 Layer 建议 选择 
为 3， 在 高 密度 下 可 选择 4 以 加 快 数据 聚 类 。 实 验 4.3.3 节 
测试 了 Layer 的 取 值 对 算法 效率 的 影响 。 


2 基于 Grid 的 密度 聚 类 算法 


展 网 格 和 数据 点 
聚 类 


F 产 天 2 -= 呈 Pn » a A 3 点 
将 Grid 应 用 于 方形 邻 域 ， 提 出 基于 Griad 的 密度 能 概念。 st 
2.1 基于 Grid 的 密度 簇 引 ， 初 始 化 得 计数 器 cluster 


全 核心 网 格 (ACG ): 给 定 网 格 G 和 密度 得 C ， 若 
vpeC(peG) 且 vp 都 是 核心 点 ， 则 称 网 格 5 为 全 核心 网 格 
(all core grid，ACG )。 
定义 可 知 ， 对 于 G ， 其 能 够 成 为 全 核心 网 格 的 充 要 
条 件 为 G6, 满足 式 (8)。 
半 核 心 网 格 (HCG ): 给 定 网 格 G 和 密度 得 C ， 若 
YpeC(peGi) 且 到 为 核心 点 ， 则 称 网 格 G1 为 半 核 心 网 格 
(half core grid，HCG )。 
定义 可 知 ， 对 于 G, ， 其 能 够 成 为 半 核 心 网 格 的 充 
条 件 为 : a) G' 为 全 核心 网 格 或 者 b) G 满足 式 〈10) 且 根 据 


是 否 人 遍历 完 
整个 数据 集 


网 格 是 否 属于 
AcG 或 者 


索引 处 点 与 
点 所 在 网 格 
是 否 未 访问 


| 


引 理 2 可 确定 也 为 核心 点 。 可 以 看 出 ， 全 核心 网 格 < 半 核 
心 网 格 。 本 
非 核心 网 格 CNCG ): 给 定 网 格 c 和 密度 艇 C， 车 
vpeC(peG)， 则 称 网 格 G, 为 非 核心 网 格 (non core grid， 图 2 算法 总 体 流程 


NCG)。 Fig.2 Algorithm overall flow 
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2.3 SGBSCAN 算法 实现 若是 则 拓展 密度 徐 (6-24 行 ); 若 不 是 ， 则 置 为 噪 


算法 1 描述 了 算法 实现 的 总 框架 。 
算法 1 SGBSCAN 算法 框架 
Algorithm1 SGBSCAN 


THI 


Parameter:Ssl,Minpts and Layer 

Input:Dataset D. 

Output:dataset-with-cluster-id DWCI. 

Algorithm: 

1.Cluster < 一 1; 

2.Grids 一 divideDataIntoGrid(D,Ss]l,Layer,Minpts); 
3.for each p in D do 

4. G 一 gridofPoint(p); 

55 if p.isUnvisited && G.isUnvisited than 

6. if |G| > 三 Minpts // G and it's neighbor 
grid are ACG 

Ze G.cluster Rs 
neighborGrid(Layer,G).cluster <— Cluster; 

8. G.visited 
neighborGrid(Layer,G).visited 一 true; 

9. GridsToVisit.add(boundaryGrid(Layer,G)); 
16 . 

EXPANDGRIDS(Ss1,Layer,MinpPts,Cluster,GridsTovisit); 


11s ClLuster++; 

12.。 else if (5|G| + 7 |neighborGrid(Layer,G)|) 
三 Minpts than 

// G is ACG 

13. G.cluster 一 Cluster;G.visited < true; 
14. GridsToVisit.add(neighborGrid(Layer,G)); 
5s 


EXPANDGRIDS(Ssl,Layer,Minpts,Cluster,GridsToVisit); 


16. Cluster++; 
7 else if (5|G| + |neighborGrid(Layer,G)| + 
18. 一 


|insslofPoint(Ssl,p,neighborGrid(Layer,G))|) than 
// G is HCG 


19 . p.cluster <— Cluster;p.visited 一 true; 

26 . GridsToVisit.add(neighborGrid(Layer,G)); 
21。 

EXPANDGRIDS(Ssl,Layer,Minpts,Cluster,GridsToVisit); 

22., PointsToVisit.add(boundaryGrid(Layer,G)); 
23, 


EXPANDPOINTS(Ss]l,Layer,Minpts,Cluster,PointsToVisit); 


24. ClLuster++; 

25. else 

26. p.cluster 一 Noise; // p maybe a 
boundary point or noise 

27. end if 

28 . end if 

29.end for 


36.return DWCI; 
首先 初始 化 Cluster 计数 器 (1 行 )， 依 据 输入 的 参数 使 
用 divideDatalIntoGrid0 函数 对 数据 进行 网 格 划 分 得 到 Grids (2 
行 )。 


H 


村 


然后 依次 遍历 所 有 数据 集中 的 数据 点 上 ， 通 过 
gridOjPoimt0 函数 获取 P 所 在 的 网 格 G 。 先 判断 和 G 是 否 
未 访问 ， 若 未 访问 ， 则 判断 其 是 否 为 4CG 或 者 HCG 。 


(25~26 行 )。 如 果 7 不 是 噪声 ， 在 后 续 拓展 中 会 将 其 分 类 
为 边界 点 。 
内 中 ; 

GridsToVisit 为 用 于 存储 待 拓展 的 网 格 的 队列 ; 
PointsToVisit 为 用 于 存储 待 拓展 的 数据 点 的 队列 ; 


neighborGrid(Layer,G) 表示 依 Layer 参数 界定 的 G 的 所 有 
邻居 网 格 ; 

boundaryGrid (Layer,G) 表示 依 Layer 参数 界定 的 G 的 所 有 
边界 网 格 ; 

inSs1OfPoint (Ssl, p,neighborGrid(Layer,G)) 表示 G 的 所 有 边界 


网 格 内 的 所 有 在 G 邻 域 的 数据 点 的 集合 。 


算法 1 中 的 EXPANDGRIDS 函数 用 于 实现 拓展 网 格 
密度 徐 ， 其 函数 定义 见 算法 2。 
算法 2 ”EXPANDGRIDS 函数 
FUNCTION 


EXPANDGRIDS(Ssl,Layer,Minpts,Cluster,GridsToVisit) 
1.while GridsToVisit.isNotEmoty do 
2， G — GridsToVisit.poll(); 

G.cluster < 二 Cluster;G.visited <— true; 

if |G| 2 Minpts than 


neighborGrid(Layer,G).cluster <— Cluster; 


GridsToVisit.add(boundaryGrid(Layer,G)); 


3 

4 

5 

6. neighborGrid(Layer,G).visited 一 true; 

7 

8 else if (|G| + > |neighborGrid(Layer,G)|) = 


Minpts than 


9. GridsToVisit.add(neighborGrid(Layer,G)); 

10. else if (5|G| + |neighborGrid(Layer,G)| + 

14， 2 
|insslOofPoint(Ssl,p,neighborGrid(Layer,G))|) than 

12. p.cluster <— Cluster;p.visited <— true; 

13. GridsToVisit.add(neighborGrid(Layer,G)); 

14. PointsToVisit.add(boundaryGrid(Layer,G)); 
15., Cluster+t+; 

16. end if 


17.end while 
循环 访问 GridsToVisit 直到 其 为 空 。 首 先 获 取 并 移 除 
GridsToVisit 队列 的 头 ， 赋 值 为 G (2 行 )， 并 设 Gcluster 为 
Cluster 且 已 访问 (3 行 )， 再 判断 其 是 否 为 4CG 。 如 果 是 ， 
则 执行 将 其 邻居 网 格 压 入 队列 〈4-9 行 ); 如 果 不 是 ， 则 其 
可 能 为 8CG,NCG,BG ， 将 其 邻居 网 格 压 入 队列 ， 且 将 边界 网 
格 内 的 数据 点 压 入 PointsToVisit 队列 (10~15 行 )。 
算法 1 中 的 EXPANDPOINTS 函数 主要 对 非 噪声 点 的 边 
界 点 进行 判定 。 其 函数 定义 见 算法 3 。 
算法 3 EXPANDPOINTS 函数 
FUNCTION 
EXPANDPOINTS(Ssl,Layer,Minpts,Cluster,PointsToVisit) 


1.while PointsToVisit.isNotEmoty do 

2. p 一 PointsToVisit.poll(); 

// If p is a boundary point, it will be classified 

3 p.cluster <— Cluster;p.visited <— true; 

4. G 二 gridofPoint(p); 

5. if (|G| + TlneighborGrid(Layer,G)| + 

6. 
|insslOofPoint(Ssl,p,neighborGrid(Layer,G))|) than 

7 PointsToVisit.add(boundaryGrid(Layer,6G)); 


ChinaXiv 合 作 期 刊 
录用 定稿 兰 红 ， 等 : 基于 方形 领域 的 网 格 密度 聚 类 算法 第 37 卷 第 6 期 
8. end if 行 对 比分 析 。 其 中 DBSCAN 和 CBSCAN 参数 Eps 的 取 值 为 
9.end while 7 
表 1 中 对 应 的 |&2 ，MinPts 取 表 1 中 的 值 ，SGBSCAN 采 
2.4 复杂 度 分 析 元 


设 给 定数 据 集 的 数据 点 数量 为 上 ， 对 数据 点 进行 网 格 划 “用 表 1 中 的 所 有 参数 ;，K-means 的 参数 天 采用 表 1 中 的 
分 后 的 网 格 数 量 为 mw ， 若 7 为 边界 点 和 噪声 点 占 数据 集 的 比 Classes 的 值 。 
例 ， 则 数据 集中 边界 点 和 噪声 点 的 数量 为 7 ; 若 ,8 分别 表 1 实验 数据 集 


E24 


为 全 核心 网 格 和 半 核 心 网 格 占 总 网 格 数 的 比例 ， 则 数据 集中 Table 1 Experimental data set 
全 核心 网 格 和 半 核 心 网 格 的 数量 分 别 为 am,pB.m。 # . . 
Dataset jst Dimension Classes Parameters 
> 和” ances 
设 B=(2Layer)} ,N=(2Layer -3) ， 则 本 文 SGBSCAN 算 2 
前 at Ssl=2.48, Layer=3, 
Sn ame 
法 的 时 间 复 杂 度 为 MinPts=10 
O(n)+O(g:m:N)+0(B:m:B)+O(yn:B) (13) Pathbased 300 2 4 Ssl=3.37, Layer=3, MinPts=3 
Ro: Compound 399 6 Ssl=2.48 ,Layer=3 ,MinPts=3 
0(n) 为 网 格 划 分 的 时 间 复 杂 度 ; O(a.m:N) 为 遍历 全 核 i 00 二 Ssl=0.89 ,Layer=3， 
心 网 格 的 时 间 复 杂 度 ， 识 别 一 个 网 格 是 否 为 全 核心 网 格 ,只 MinPts=15 
需要 统计 其 NN 个 邻居 网 格 ;，0(Bm:8) 为 遍历 半 核 心 网 格 的 Ssl=3.02, Layer=3, 
pi Nd 人 日 不 a 汪 x a Aggregation 788 2 7 
时 间 复 杂 度 ， 判 别 一 个 网 格 是 否 为 半 核 心 ， 则 需要 统计 其 MinPts=10 
N 个 邻居 网 格 加 判别 B-N 个 边界 网 格 内 在 数据 点 ssi 邻 域内 S a Ssl=1.07, Layer=3, 
的 数据 点 个 数 ， 总 的 来 说 ， 即 需要 扫描 8 个 网 格 ;，0(7n:8) MinPts=15 
为 遍历 边界 点 和 噪声 点 的 时 间 复 杂 度 ， 判 别 一 个 边界 点 和 噪 ja 00 人 Ssl=17.73 ,Layer=3, 
声 点 最 少 需 要 扫描 8 个 网 格 。 MinPts=20 
Ssl=0.01064, Layer=3， 
3 ”实验 及 分 析 User018 47279 2 Unknown ~ 
MinPts=20 
对 SGBSCAN 的 聚 类 效果 和 效率 进行 综合 实验 评估 ， Ssl=0.01064, 
i ei User000 176182 2 Unknown . 
并 且 加 入 DBSCAN、CBSCAN 和 K-means 进行 对 比分 析 。 Layer=3 ,MinPts=25 
实验 平台 为 CPU: Intel® Core(CM i7-4710MQ @ 2.5 GHZ， Ss1=0.01064, Layer=3, 
. User002 248217 2 Unknown 
Memory: 16 GB, Operating System: Windows 10 version MinPts=28 
1803 x64, Programming Language: Java。 User000- Ssl=0.01064, Layer=3, 
A Re 528382 2 Unknown 
3.1 实验 数据 和 测试 方法 002 MinPts=30 
实验 数据 : 数据 如 表 1 所 示 ， 共 包含 16 个 数据 集 。 前 User000- Ssl=0.01064, Layer=3， 
Ei FE SR 5174773 2 Unknown 
7 个 数据 集 (从 Flame 到 t4.8k) 用 于 展示 聚 类 效果 。 其 中 020 MinPts=50 
Flame[3 包 含 一 个 凸 数据 集 和 一 个 凹 数据 集 的 密度 复 ; User000- Ssl=0.01064, Layer=3, 
0 各 今 个 环 下 人 4 人 于 并 7649862 2 Unknown , 
Pathbasedt14i 包 含 一 个 环形 徐 和 两 个 内 骨 的 高 斯 密度 秘 ; 030 MinPts=75 
CompoundD5 包 含 6 个 不 同形 状 的 复杂 结构 密度 徐 ， 密 度 艇 Vie Sg Ssl=0.01064, Layer=3, 
Sy 、 二 nknown . 
之 间 关 系 包 括 相 连 、 内 磐 、 包 含 和 不 同 密度 重 王 的 情况 ; 040 MinPts=100 
R1500 由 15 个 大 小 相似 的 高 斯 密度 簇 组 成 '，Aggregation[17] User000- Ssl=0.01064, Layer=3, 
是 人 不 同形 时 站 - i 110] 各 今 11113351 2 Unknown 
包括 了 7 个 不 同形 状 的 非 高 斯 分 布 的 密度 艇 :D310 包含 050 MinPts=125 
31 个 高 斯 密度 簇 ; t4.8kt 妆 由 7 个 不 同形 状 、 互 相 肉 套 ， HTRU2 17898 9 UnknownSsl=1.6, Layer=3, MinPts=35 
量 挫 杂 了 大 量 品 声 的 密度 簇 构成 。 为 了 清晰 地 展示 实验 效果 ， 实 验 效果 图 采用 不 同 的 颜色 
User 等 8 个 数据 集 用 于 测试 数据 规模 对 性 能 的 影响 。 和 不 同 的 形状 代表 不 同 的 徐 ， 其 中 品 声 采用 灰色 圆 点 表示 。 
据 来 自 微软 亚洲 研究 院 的 Geolife 项 目 02201。 该 项 目 数据 。 从 图 3 所 示 的 实验 效果 可 以 看 出 ，DBSCAN、CBSCAN、 


数 

集 包 含 182 个 用 户 在 超过 五 年 (从 2007 年 4 月 到 2012 年 8 ” SGBSCASN 由 于 其 为 精确 密度 聚 类 ， 所 以 均 能 很 好 地 识别 
月 ) 时 间 里 的 户外 活动 。 该 数据 集 的 GPS 轨迹 由 一 系列 带 虹 声 ， 而 K-means 把 噪声 识别 为 簇 的 一 部 分 ， 不 能 很 好 地 
有 
用 


时 间 恰 的 点 表示 ， 每 个 点 包含 纬度 、 经 度 和 高 度 信息 。 选 ”区 分 噪声 与 正常 值 。K-means 由 于 其 不 能 识别 叫 数 据 自 


7 


tl 


一 


] Geolife 项 目 数 据 集 的 纬度 和 经 度 信息 。User000 表示 为 。” 以 在 数据 集 内 有 内 肉 和 包含 关系 的 时 候 不 能 很 好 地 区 别 簇 之 
使 用 了 编号 为 000 的 用 户 所 有 活动 数据 ，User000-002 表示 间 的 关系 ， 而 SGBSCASN 由 于 其 继承 自 DBSCAN， 拥 有 
使 用 编号 从 000~002 的 3 个 用 户 的 所 有 活动 数据 ， 其 他 数 ” DBSCAN 可 以 识别 任意 形状 的 簇 的 能 力 ， 既 能 识别 凸 集 ， 
意思 相同 。 也 能 识别 凹 集 的 能 力 ， 所 以 不 论 数据 集 内 是 否 存在 复杂 的 
HIRU2D52 数 据 集 用 于 测试 数据 维度 对 性 能 的 影响 。 连 、 内 骨 、 包 含 和 不 同 密度 重 闪 的 关系 ， 痢 能 很 好 地 进行 簇 
HTRU2 数据 集 描述 在 宇宙 测量 期 间 收 集 的 脉冲 星 候选 物 样 ” 的 区 分 。 其 表现 如 图 3 (c) 所 示 ，DBSCAN、CBSCAN、 
本 的 数据 集 。 数据 集 一 共有 9 个 维度 ， 包 含 1 639 个 正面 SGBSCASN 均 能 很 好 地 识别 左下 角 岗 套 的 两 个 簇 ， 而 K- 


er 
了 
名 


例子 ，16 259 个 负面 例子 。 means 则 将 两 个 簇 从 中 切 开 ， 内 内 关系 的 表现 在 儿 .8k 数据 
3.2 实验 效果 评估 集 上 很 好 地 展示 出 来 ， 在 两 个 “站” 字形 数据 集 互相 谨 套 ，K- 
对 表 1 的 前 7 个 三 维 数据 集 (从 Flame 到 t4.8k)〉 用 图 。 means 无 法 识别 这 类 艇 结构 ， 采 用 将 其 切 开 的 方式 识别 簇 ， 


3 进行 展示 聚 类 效果 。 分 别 用 本 文 的 SGBSCAN 算法 、 传 统 SGBSCASN 能 完美 的 识别 该 簇 结构 。 
的 DBSCAN 算法 、 文 献 [12] 的 CBSCAN 和 KK-means 算法 进 
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(a) Flame 


K-Means 


(b) Pathbased 
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(c) Compound 


(e) Aggregation 
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(f) D31 


DBSCAN 


3.3 性 能 测试 


本 节 对 数据 的 规模 和 纬度 分 别 做 测试 。 
规模 测试 时 采用 二 维 数据 进行 测试 。 在 数 
据 维度 测试 中 ， 因 为 CBSCAN 不 支持 高 维 数 : 


CBSCAN， 在 数 # 


对 比 DBSCAN。 


CBSCAN 


K-Means 


(g) 14.8k 


图 3 各 算法 实验 效果 


Fig.3 Experimental results of each algorithm 


于 需要 对 比 


居 ， 所 以 选择 


3.3.1 数据 规模 性 能 测试 


对 表 1 中 的 User 等 8 个 数据 集 测试 ， 对 比 DBCAN、 


CBSCAN 和 SGBSCASN 算法 的 1 


1 的 参数 。SGBSCASN 的 Layer 参数 为 3。 各 算法 聚 类 使 用 


| Ea 
过 
各 ‘ 
， 3 
he 
< 
SGBSCAN 
SGBSCAN 


生 能 ， 对 每 个 数据 集 采用 表 


时 间 如 表 2 所 示 ， 使 用 时 间 趋 势 


图 如 图 4(a) 所 示 ， 内 存 消耗 
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情况 如 图 4(b) 所 示 。 


上 


表 2 数据 规模 性 能 测试 结果 /S 
Table 2 Data size performance test results /s 
dataset DBSCAN CBSCAN SGBSCASN 
User018 21.91 0.39 0.023 
User000 214.06 2.48 0.035 
User002 405.20 3.88 0.037 
User000-002 1719.57 9.71 0173 
User000-020 155976.92 73.99 1.727 
User000-030 x 92.13 3.021 
User000-040 x 101.04 3.167 
User000-050 x 109.34 4.667 
1750 | -一 - DBSCAN 
一 全 - CBSCAN 
1500] “@- SGBSCAN 
1250 +1 
立 1o0o] 
5 
< 750] 
” 50 
250 1 
一 一 一 一 -站 一 一 一 一 站 -一 一 一 一 全 
0 司 一 -一 一 全 -一 一 一 -全 一 一 一 一 -全 二 一--@@--------- 全 --------- 全 Ee 
SR 各 Eg Ey PD oD oo KS 
RK SS 翌 Eg 者 时 这 
SY YY YY 
Dataset 
(a)Use time 
一 一 DBSCAN 
1500 二 -A - CBSCAN em 
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1250 41 pe 
EE 1000 | -用 
J 
E70] 0 
3 50] wre- 
250 4 ER 
04 
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Fig.4 Performance comparison 


表 2 中 数据 及 图 4(a) 中 的 趋势 可 知 ， 随 着 数据 集 的 数 


据 量 的 增 大 ， 各 种 算法 所 


时 间 也 随 之 增 大 。 以 User000- 


020 数据 集 为 例 ， 数 据 量 为 


行 时 间 为 155 976.92 s， 耗 时 远大 于 另外 两 种 算法 ， 对 于 
数据 量 为 1000 万 级 ， 对 比 


User000-050 的 数据 集 ， 
CBSCAN 和 SGBSCASN， 


分 析 其 原因 ， 在 二 维 数 


图 4(b) 中 的 内 在 消耗 趋势 图 可 知 ， 随 着 数据 集 的 数据 


500 万 级 ， DBSCAN 算法 的 运 


SGBSCASN 算法 能 获得 大 约 40 


党 的 加 速 比 ， 聚 类 速度 更 快 。 


据 集 下 ，CBSCAN 在 判定 排他 


网 格 中 的 XG? 网 格 需要 检查 36 个 网 格 ， 而 SGBSCASN 只 需 
要 检查 27 个 网 格 ， 且 CBSCAN 在 算法 结构 上 存在 宛 余 计算 
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于 都 建立 了 网 格 索引 ， 网 格 越 多 ， 建 立 的 索引 越 多 ， 内 存 消 


耗 越 大 ， 且 随 着 数据 集 增 大 内 存 消 耗 增加 明显 。 
3.3.2 数据 维度 性 能 测试 


采用 表 1 中 的 最 后 一 个 数据 集 HTRU2 测试 高 维度 数 ] 


ml 


性 能 。 对 比 DBSCAN、K-means 和 SGBSCASN 三 种 算法 。 
其 中 DBSCAN、SGBSCASN 的 参数 取 值 如 表 1 所 示 ，K- 
Means 的 参数 取 2。 实 验 结 果 如 表 3 所 示 ， 其 中 
Dimension 的 值 代 表 维 度 。 
表 3 数据 维度 性 能 测试 结果 /s 
Table 3 Data dimensional performance pest results /s 
Dimension DBSCAN K-Means SGBSCASN 

2 8.02 17.06 0.17 

3 9.71 17.53 0.41 

4 13.61 18.98 1.81 

3 12.78 20.78 7.95 

6 14.02 23.37 54.68 


从 表 3 数据 可 以 看 出 ， 与 DBSCAN 和 K-means 算法 一 
样 ，SGBSCASN 算法 支持 高 维度 数据 聚 类 。 当 维度 小 于 6 


时 ，SGBSCASN 算法 的 聚 类 速度 明显 快 于 另外 两 种 算法 ; 


当 维度 大 于 等 于 6 时 ， 速 度 较 另 外 两 种 算法 慢 。 
3.3.3 Layer 取 值 性 能 测试 


定 不 同 的 Ssl 和 MinPts 值 。 实 验 结果 如 表 4 所 示 。 
表 4 Layer 取 值 性 能 测试 结果 /s 


Table 4 Layer value performance test result /s 


本 文 的 SGBSCASN 算法 的 关键 在 于 Layer 的 取 值 ， 采 
用 User000-020 大 数据 集 对 Layer 的 取 值 进行 测试 。 分 别 设 


Parameters \ Layer 3 4 5 6 
Ssl=0.01064 MinPts=50 1.832 1.512 2.403 2.448 
Ssl=0.02064 MinPts=90 1.755 1.260 2.239 2.009 
Ssl=0.03064 MinPts=130 1.688 1.130 1.579 1.587 


表 4 可见 ， 一 般 情况 下 Layer 取 值 为 3 是 最 优 的 选择 ， 


在 S 和 MinPrs 值 增 大 时 ， Layer 取 值 为 4 加 快 聚 类 速度 ， 所 


以 Layer 取 值 与 S 和 MinPts 值 相关 。 
4 ”结束 语 


本 文 针对 大 数据 聚 类 提出 了 基于 密度 和 网 格 划分 的 快速 
高 效 的 聚 类 算法 SGBSCAN， 方形 邻 域 和 Grid 的 距离 分 析 使 
得 算法 无 须 距 离 计算 ， 提 高 了 算法 速度 ， 基 于 Grid 的 密度 


簇 概 念 给 出 的 几 种 网 格 之 闻 的 关系 和 网 格 划 分 建立 索引 ， 使 


得 算法 无 须 遍历 全 部 数据 ， 提 高 了 算法 效率 。 在 实验 综合 评 
估 后 ， 相 比 于 传统 的 DBSCAN， 算 法 拥有 更 高 的 效率 ， 速 


度 提 升 明 显 ， 
但 算法 在 维度 大 于 5 的 高 
后 期 进一步 研究 解决 。 
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附录 : 


附录 1 引 理 1 证 明 
证 明 设 数 据点 ? 处 于 网 格 G 中 ， 其 Ss! 邻 域内 的 所 有 
数据 点 都 为 其 邻居 点 ， 如 图 1 所 示 ， 分 别 为 Layer=3、4、5 


时 的 Griqd 网 格 划分 ， 在 极端 情况 下 ?位 于 网 格 G 的 顶点 


上 ， 但 无 论 其 处 于 哪个 顶点 (如 蓝 色 点 ? 和 红色 点 ?分 别处 
于 左上 角 和 右 下 角 )， 在 5 网 格 附近 Layer-2 层 内 的 网 格 
(如 图 1 中 黑色 框 线 所 包括 的 网 格 ) 中 的 数据 点 都 在 其 sw 
邻 域内 ， 即 都 为 其 邻居 点 。 所 以 若 G1 满足 式 (8)， 则 点 P 
一 定 是 核心 点 。 
附录 2 引 理 2 证 明 
证 明 数据 点 ?在 网 格 c 中 如 果 不 是 处 于 中 心 ， 则 必 

然 靠近 于 网 格 中 的 一 个 顶点 ， 确 定 其 所 靠近 的 顶点 后 ， 则 其 
邻 域 所 能 履 盖 到 的 网 格 为 其 所 在 网 格 中 心 点 ss 邻 域内 的 网 
格 加 上 其 靠近 的 顶点 向 外 拓展 的 一 层 长 度 为 2Layer 的 范围 内 
的 网 格 ， 在 二 维 中 的 表现 如 图 1 蓝 点 ? 和 红 点 ? 的 Ssi 邻 域 
所 覆盖 的 网 格 所 示 ， 即 至 多 统计 该 范围 内 的 (2Layer》* 个 网 格 
中 为 ? 的 邻居 点 的 数据 点 个 数 ， 因 为 邻 域 为 方形 的 缘故 ， 这 
步 并 不 需要 计算 距离 ， 只 需 对 边界 网 格 内 的 各 个 数据 点 判 

源 其 各 维 数据 是 否 在 数据 点 ? 的 网 格 区 间 内 ， 就 可 以 快速 的 
判断 范围 内 ? 的 邻居 点 的 个 数 。 其 中 中 心 的 (QLayer-3): 个 网 
格 只 需要 统计 个 数 ， 无 须 判 断 ， 所 以 至 多 需要 判断 


CLayer)-(CLayer-3i 个 网 格 。 
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